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摘要 : [目的 /意义 ] 关注 开放 科学 运动 的 发 展 以 及 科学 数据 对 科学 研究 的 影响 ， 介 绍 科学 文献 与 科学 
数据 融合 的 实例 ， 阐 述 科学 文献 与 科学 数据 融合 的 方法 与 困难 。 [方法 / 过程 ] 描述 文献 与 数据 分 离 的 现 
R, 说明 二 者 融合 的 推动 因素 ， 通 过 案例 介绍 了 科学 文献 与 科学 数据 融合 的 3 种 呈现 方式 . [结果 / 结论 ] 
科学 文献 与 科学 数据 的 融合 是 科学 研究 本 身 的 一 种 需要 ， 同 时 也 是 开放 科学 与 大 数据 对 现代 科学 研究 的 一 


种 影响 形式 。 在 实际 应 用 中 主要 有 “ 硬 关 联 ” 


“ 软 关联 ”和 “深度 融合 ”三 种 方式 。 科 学 文献 与 科学 数据 
的 深度 融合 需要 顶级 学 术 机 构 的 综合 性 措施 来 推动 。 
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@O 科 学 文献 与 科学 数据 的 关系 


科学 数据 主要 包括 在 自然 科学 、 工 程 技 术 
科学 等 领域 , 通过 基础 研究 、 应 用 研究 、 试 验 
开发 等 活动 产生 的 数据 ， 以 及 通过 观测 监测 、 考 
察 调查 、 检 验 检测 等 方式 取得 并 用 于 科学 人 研究 
活动 的 原始 数据 及 其 衍生 数据 。 科 学 的 发 展 
历程 表明 科学 人 研究 结果 和 科学 人 研究 过 程 同等 重 
要 。 如 果 把 一 个 特定 研究 阶段 的 文献 产 出 与 发 


表 看 作 是 科研 结果 的 话 ， 那 么 科学 数据 则 既 可 
以 看 作 是 科研 最 终 成 果 ， 也 可 以 看 作 是 科研 过 
程 产物 。 论 文 以 总 结 的 角度 对 事务 的 背景 、 目 
的 、 过 程 和 结果 进行 介绍 和 分 析 ; 而 数据 则 详 
实地 记录 了 科研 的 每 一 个 过 程 和 结果 ， 形 成 客 
观 的 数据 世界 (digital space) ， 是 文献 内 容 的 
佐证 。 

当前 ， 科 学 数据 的 表现 形式 也 在 不 断 变 
化 ， 从 数据 产生 的 渠道 来 看 ， 包 括 但 不 限于 观 
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测 数据 ， 如 气象 数据 、 天 文 数 据 、 海 洋 生态 数 
据 ， 以 及 电子 病历 、 穿 戴 设备 采集 数据 等 单 体 
体 量 小 但 总 体 体 量 极 大 的 个 人 数据 ; 实验 数 
据 ， 如 药物 数据 、 基 因数 据 、 蛋 白质 相互 作用 
数据 等 ; 另外 ， 还 有 在 这 些 一 手数 据 的 基础 上 
产生 的 分 析 数 据 、 统 计数 据 、 图 表 数 据 以 及 图 
片 、 音 频 、 视 频数 据 。 多 种 类 型 的 数据 蕴含 了 
极为 丰富 的 信息 。 

17、18 世纪 ， 科 学 期 刊 的 出 现 和 发 展 ， 为 
当时 科学 知识 的 涌现 做 出 了 突出 的 贡献 。 然 
而 ， 在 相当 长 的 时 间 里 ， 由 于 认识 和 技术 等 多 
种 原因 ， 科 学 文献 和 科学 数据 并 未 能 够 很 好 地 
关联 在 一 起 。 科 学 文献 以 其 较 好 的 可 阅读 性 、 可 
获得 性 、 可 传播 性 在 整个 学 术 交 流体 系 中 占据 
了 重要 的 位 置 ， 而 科学 数据 则 仍然 “ 藏 在 深闺 
人 不 知 ”。 科 学 实践 告诉 我 们 ,在 “数据 密集 型 " 科 
研 模式 之 下 ， 科 学 文献 已 经 无 法 单独 满足 科研 
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人 员 对 科学 研究 的 需要 。 科 学 的 发 展 和 创新 需 
要 科学 理论 与 科学 实证 的 融合 。2012 年 ， 英国 
皇家 学 会 发 布 了 《科学 : 开放 事业 》 报 告 ， 其 
中 提 到 ，“ 一 篇 完整 的 学 术 论文 应 该 包括 对 实 
验 的 完整 描述 、 结 果 数 据 、 不 确定 性 评价 和 确 
保 数 据 能 被 验证 和 重复 使 用 的 元 数据 ”中 。 欧 盟 
在 2016、2017 年 接连 发 布 了 Horizon 2020 框架 
下 面向 FAIR (Findable, Accessible, Interoper- 
able, Reusable ) 原则 的 期 刊 论文 和 研究 数据 管 
理 条 例 与 规范 。 在 这 些 规 范 中 ， 欧 盟 明确 了 基 
于 公共 资金 支持 的 研究 成 果 的 管理 路 线 图 ( 见 图 
1)""， 并 且 将 研究 数据 与 期 刊 论文 等 文献 成 果 放 
在 了 同等 重要 的 地 位 ，“ 要 确保 期 刊 论文 的 开 
放 获 取 , 并 且 积 极 推 动 研究 数据 的 开放 管理 ”外 。 
开放 科学 的 目标 之 一 就 是 文献 与 数据 共存 ，“ 所 
有 文献 在 线 ， 所 有 数据 在 线 ， 二 者 丝 可 获得 、 可 
eee” P, 


出 版 


数据 管理 规划 成 果 利 用 /保护 
Mt ee 


基于 此 ， 在 当前 大 数据 与 开放 运动 的 背景 
之 下 ， 科 学 文献 与 科学 数据 的 融合 和 相互 彰显 
已 经 成 为 一 种 趋势 和 需要 。 在 后 续 内 容 中 ， 本 
文 将 主要 介绍 当前 出 现 的 一 些 科 学 文献 与 科学 
数据 融合 的 实例 与 方法 ， 并 在 此 基础 上 说 明 这 
种 融合 存在 的 困难 。 


O 大 数据 与 开放 运动 下 的 科学 文献 与 
科学 数据 
2.1 大 数据 时 代 科 学 研究 范式 的 改变 

随 着 智能 技术 和 网 络 技术 的 发 展 ， 数 据 规 
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图 1 Horizon 2020 科研 成 果 管 理 路 线 图 


限制 检索 
与 应 用 


模 发 生 了 爆炸 性 增长 。 人们 利用 消费 着 数据 , 同 
时 也 在 产生 着 数据 ， 人 类 进入 了 大 数据 时 代 。 
据悉 ，2019 年 正式 投入 运行 的 LAMOST 光谱 
巡天 望远镜 每 晚 产生 20 GB 的 光谱 数据 。 地 面 
广角 相机 阵 GWAC 每 天 的 观测 数据 量 可 达 7.4 
TB。“ 天 籁 计划 ”大 型 射电 干涉 仪 阵列 一 期 96 
面 天 线 的 数据 流量 为 4.8 GBS， 二 期 1 000 面 天 
线 的 数据 流量 为 3.2 TB/s 外 。 面 对 蜂拥 而 来 且 无 
处 不 在 的 数据 ， 科 学 研究 也 不 可 避免 会 受到 影 
响 。2007 年 ， 吉 姆 :格林 (J. Gray) 在 学 术 报 告 中 
将 科学 分 为 经 验 和 科学、 理论 科学 、 计 算 模 拟 科 
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国 微软 研究 院 出 版 了 《第 四 范式 : 数据 密集 型 
科学 发 现 》。 人 们 认识 到 数据 在 科学 研究 中 的 
作用 已 经 从 近代 科学 的 量化 、 精 准 和 辅助 决策 
工具 发 展 到 “不 确定 性 ”， 甚 至 成 为 研究 许多 
复杂 现象 主要 旋 至 唯一 的 途径 。 
2.2 开放 运动 下 科学 文献 与 数据 的 管理 政策 与 实 
Ek 

数据 与 文献 融合 的 前 提 是 开放 。 只 有 文献 
和 数据 都 能 够 充分 地 开放 、 方 便 地 获取 ， 使 用 
者 能 够 “以 任何 形式 ,复制 .使 用 、 分 发 .传递 、 展 
示 原 作品 ” 中 ， 二 者 之 间 的 融合 才 会 发 生 。 鉴 于 
此 ， 政府、 科研 、 出 版 等 机 构 纷纷 采取 行动 ， 意 
在 推动 科学 文献 与 科学 数据 的 开放 。 

2003 年 ， 世 界 经 济 合作 与 发 展 组 织 (OEC- 
D ) 提倡 所 有 获得 公共 财政 资金 支持 的 研究 数 
据 应 能 被 公众 获取 。2007 年 ，OECD 发 表 《 公 
共 资 助 可 续 数 据 开 放 获 取 的 原则 和 指南 》 外 。 同 
Æ, 《柏林 宣言 : 科学 与 人 文科 学 知识 的 开放 
TRL) Ret, 积极 推动 “文献 “AA P 
学 数据 ”三 类 资源 的 开放 使 用 ， 开 放 获 取 运 动 
达到 了 阶段 性 的 高 峰 。 

政府 领域 , 白宫 科学 与 技术 政策 办 公 室 
(OSTP ) 、 美 国 国 立 卫 生 研 究 院 (NIH) 、 美 
国 自然 科学 基金 会 (NSF ) 、 欧 盟 、 英 国人 研究 理 
事 会 等 ， 纷 纷 发 布 研究 数据 共享 政策 。 这 些 政 
策 的 总 体 理 念 都 是 要 求 受 公共 资金 资助 的 科研 
项 目 ， 所 形成 的 科学 数据 都 应 该 在 不 妨碍 国家 
安全 、 不 泄露 个 人 隐私 的 前 提 下 提交 、 存 储 并 
提供 公共 访问 ， 让 用 户 能 够 免费 地 获取 、 应 用 
以 及 传播 。 中 国政 府 2015 年 也 发 布 了 此 类 政策 。 
《促进 大 数据 发 展 行动 纲要 》 要 求 “ 加 快 各 级 
政府 数据 开放 共享 ， 推 动 资源 整合 ， 提 升 治理 
能 力 和 管理 水 平 ” 四。2018 年 4 月 2 日， 国务 
院 办 公 厅 发 布 《科学 数据 管理 办 法 》， 推 动 科 
学 数据 的 汇 交 与 共享 。 

学 术 出 版 领域 ， 越 来 越 多 的 学 术 期 刊 要 求 
作者 在 投稿 时 必须 向 期 刊 编辑 和 同行 评审 专家 
提供 相关 的 科学 数据 或 者 提供 数据 的 第 三 方 平 
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台 唯 一 标识 符 。 在 科学 文献 方面 ， 以 PMD B- 
MD 、ArXiv 为 代表 的 开放 获取 资源 在 领域 内 的 
影响 越 来 越 大 。 以 学 术 期 刊 和 论文 为 代表 的 开 
放 获 取 学 术 信息 资源 ( 开放 学 术 资 源 ) 已 成 为 学 
术 研 究 不 可 或 缺 的 资源 ， 正 逐步 通 近 “成 为 学 
术 研 究 主 流 资 源 ” 的 转折 点 上。 众多 商业 出 版 
社 也 积极 进入 开放 获取 期 刊 出 版 领域 。 美 国 物 
理学 会 杂志 (The Journal of Physical and Chemical 
Reference Data) 从 20 世纪 70 年 代 早 期 就 开始 描 
述 物理 和 化 学 材料 的 一 般 特性 , 目前 仍 在 出 版 。 
2014 年 5 月 ， 自 然 出 版 集团 推出 了 旨 在 帮助 科 
研 人 员 发 布 、 发 现 和 重用 研究 数据 的 期 刊 《 科 
学 数据 》， 对 研究 数据 的 开放 起 到 了 里 程 碑 性 
质 的 推动 作用 。 

在 互联 网 领域 内 ，W3C 的 关联 数据 云图 
(Linked Open Data, LOD ) 从 2007 年 的 12 个 
数据 集 发 展 到 2018 年 的 1205 个 数据 集 ( 见 
图 2)" 0。 各 类 原始 数据 通过 上 亿 条 了 RDF 三 元 
组 得 以 发 布 出 来 ， 已 经 成 为 最 大 规模 的 开放 
数据 最 佳 实践 。 另 外 ,大 量 机 构 知 识 库 的 出 
现 ， 成 为 开放 获取 实现 的 绿色 通道 。 截 至 2018 
年 6 月 ，OpenDOAR 登记 的 机 构 知 识 库 数量 
已 经 超过 3 500 个 ""。 在 科学 文献 方面 ， 基 于 
OAI-PMH, OpenURL, RSS 等 协议 和 各 类 API 
的 开放 ， 众 多 的 基于 开放 获取 资源 的 集成 服务 
平台 不 断 涌现 ， 如 BASE。 在 开放 数据 方面 ， 开 
放 数 据 仓储 作为 开放 数据 服务 的 基础 ,建立 了 
规范 的 提交 、 存 储 和 发 布 机 制 与 流程 ,更 好 地 
将 所 蕴含 的 内 容 充 分 挖掘 与 利用 。 开 放 科 学 数 
据 仓储 的 产生 与 发 展 反 映 了 开放 科学 数据 数量 
增长 与 人 们 对 开放 科学 数据 利用 的 需求 增加 。 
在 这 个 基础 上 ， 出 现 了 re3data、Dataverse、- 
Datacite 、Dryad 等 研究 数据 服务 平台 和 研究 数 
据 服务 平台 的 登记 系统 。 

随 着 各 类 推动 科技 资源 开放 的 政策 制度 的 
颁布 与 运行 ， 越 来 越 多 的 科技 文献 与 科学 数据 
为 人 们 所 使 用 。 科 学 发 展 内 在 的 严谨 性 以 及 学 
术 出 版 和 信息 服务 领域 的 拓展 ， 都 对 科学 文献 
和 科学 数据 的 融合 提出 了 要 求 。 
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图 2 开放 关联 数据 云图 (2018) 


傅 科 学 文献 与 科学 数据 融合 类 型 


总 体 来 说 ， 当 前 文献 与 数据 的 融合 可 以 归 
纳 为 3 种 类 型 : 一 种 类 型 是 基于 形式 的 硬 关 联 
(hard connection ) ; 一 种 类 型 是 内 容 上 的 软 关 
IK (soft connection) ; 第 三 种 是 细 粒 度 知 识 的 
融合 (deep integration). 

3.1 基于 形式 的 硬 关 联 

研究 数据 仓储 是 硬 关联 的 代表 。 研 究 数据 
仓储 与 机 构 仓储 类 似 ， 是 用 于 登记 、 发 布 和 存 
储 科 学 数据 的 一 种 网 络 平台 。 通 常 来 说 ， 科 研 
人 员 、 期 刊 出 版 机 构 是 研究 数据 仓储 的 两 类 主 
要 用 户 。 面 向 科研 人 员 ， 数 据 仓储 提供 便捷 的 
个 人 研究 数据 管理 以 及 与 文献 的 关联 ; 面向 期 
刊 出 版 机 构 ， 数 据 仓储 提供 无 颖 的 数据 提交 、 管 
理 和 存储 服务 "。 研 究 数据 仓储 的 特点 在 于 开 
放 性 强 、 有 完善 的 数据 管理 政策 、 充 裕 的 存储 
空间 和 强大 的 技术 支持 等 "。 研 究 数 据 仓 储 能 
够 提供 数据 ( 集 ) 的 创建 、 提 交 、 发 布 .引用 、 存 
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储 、 发 现 和 在 线 统计 等 功能 。 典 型 的 研究 数据 
仓储 包括 Dryad、Figshare 、R3Data。 

Dryad 最 初 定位 于 生物 医学 领域 的 科学 数据 
存储 与 发 布 。 近 几 年 业务 发 展 较 为 迅速 ，2015 
年 已 经 与 80 种 期 刊 达 成 了 合作 伙伴 关系 "1。 
2017 年 ， 期 刊 合作 伙伴 已 经 达到 120 家 。 例 如 
Dryad 已 经 和 PLoS 全 部 期 刊 相 连接 ， 将 数据 存 
储 与 论文 提交 过 程 相 结合 。 作 者 向 PLoS 提交 论 
文 的 同时 , 数据 会 同步 至 Dryad。2015 年 , Dryad 
发 布 了 近 4 000 个 数据 包 (data package)。2017 
年 ，Dryad 发 布 了 其 第 20 000 个 数据 包 ， 并 且 
这 些 数 据 关联 到 了 6 000 ZAHTE? 

如 图 2 所 示 ，Dryad 以 数据 集 作 为 主要 的 描 
述 对 象 。 在 描述 数据 的 时 候 ， 同 时 也 提供 了 文 
献 的 元 数据 与 URI， 让 使 用 者 能 够 方便 地 跳 转 。 
Dryad 提供 的 是 数据 与 文献 之 间 一 对 一 的 关联 ， 
并 且 这 种 关系 是 人 为 建立 的 ， 通常 把 这 种 关联 
叫做 “ 硬 关联 ”。 
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When using this data, please cite the original publication: 


Jiang Y, Wang T, Wu Y, Hu R, Huang K, Shao X (2018) Past distribution of epiphyllous 
liverworts in China: The usability of historical data. Ecology and Evolution, online in advance 


of print. https://doi.org/10.1002/ece3.4274 


Additionally, please cite the Dryad data package: 


Jiang Y, Wang T, Wu Y, Hu R, Huang K, Shao X (2018) Data from: Past distribution of 
epiphyllous liverworts in China: the usability of historical data. Dryad Digital Repository. 


https://doi.org/10.5061/ .2jr1648 


Cite | Share 


图 3 Dryad 数据 集 描述 信息 


Ecology and Evolution 


ORIGINAL RESEARCH Open Access ©) ® 


Past distribution of epiphyllous liverworts in China: The usability 


of historical data 


Yanbin Jiang, Tiejun Wangég, Yupeng Wu, Ronggui Hu, Ke Huang, Xiaoming Shao mm 


First published: 02 July 2018 | https://doi.org/10.1002/ece3.4274 


Read the full text > 


3.2 基于 内 容 的 软 关 联 

基于 内 容 的 关联 是 当前 科学 文献 和 科学 数 
据 最 为 普遍 的 一 种 关联 形式 。 以 天 文学 为 例 , 天 
文学 涉及 天 体 动 力 、 天 体 物 理 、 天 体 测量 等 ， 是 
典型 的 科研 仪器 密集 型 、 科 学 数据 密集 型 领域 。 
难能可贵 的 是 ， 天 文 领域 在 数据 的 开放 共享 、 大 
数据 管理 以 及 综合 科研 信息 化 环境 建设 方面 一 
直 都 很 积极 和 规范 。 天 文学 领域 的 诸多 数据 
Æ, 如 ADS, CDS, Chandra X-ray Center, X- 
MM-Newton Science Archive， 都 把 观测 数据 与 
科学 文件 作 了 很 好 的 映射 。 下 面 以 XMM-New- 
ton 以 及 CDS 为 例 进 行 说 明 。 

XMM-Newton 是 欧洲 航天 局 (ESA ) X 射 
线 多 镜 任务 的 建设 成 果 ， 始 于 1999 年 。 现 在 
XMM-Newton 是 ESA 地 平 线 计 划 的 科学 基石 
Z— Ml. WS. 6 所 示 , Æ XMM-Newton 的 


图 4 与 Dryad 数据 集 关 联 的 论文 信息 


< SHARE 


T PDF A TOOLS 


搜索 界面 输入 检索 词 “Cygnus X-1”， 检 索 结 
果 包 含 若 干 行 观测 数据 。 点 击 其 中 一 条 查看 详 
细 信 息 ， 就 能 看 到 和 这 条 数据 图 谱 、 色 谱 以 及 
相关 的 出 版 物 。 这 些 出 版 物 的 出 版 年 代 跨 度 从 
2009 年 到 2015 年 。 点 击 年 代 信 息 ， 会 自动 跳 
转 到 CDS 数据 库 获 取 电 子 版 全 文 。 而 CDS 又 
提供 了 这 篇 文献 所 包括 的 10 种 SIMBAD 对 象 
言 息 以 及 从 1850 年 到 现在 涉及 到 这 些 对 象 的 
文献 信息 "1。 

从 XMM-Newton 和 ADS 两 个 数据 库 的 信 
息 来 看 ， 数 据 和 文献 的 对 应 关系 是 一 对 多 、 多 
对 一 的 关系 。 这 种 关联 的 建立 并 非 是 数据 出 自 
某 一 篇 文献 ， 而 是 这 些 文献 中 都 论述 到 了 这 一 
方面 的 信息 。 笔 者 把 这 种 类 型 的 关联 叫做 “ 软 
关联 ”。 这 种 软 关联 能 够 提供 给 用 户 较 多 的 参 
考 文献 ， 但 同时 也 存在 不 十 分 准确 的 可 能 性 。 
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图 5 XMM-Newton 观测 数据 信息 
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Summary ] Science Exposures 


Title 


Tracing the Reverberation Lag in the Hard State of Black 


Hole X-Ray Binaries 


An XMM-Newton view of FeKalpha in high-mass X-ray 


binaries 


Serendipitous UV source catalogues for 10 years of XMM 


and 5 years of Swift 


The XMM-Newton serendipitous ultraviolet source survey 


catalogue 


Probing the Environment of Accreting Compact Objects 
Stellar-Mass Black Hole Spin Constraints from Disk 


Reflection and Continuum Modeling 


3.3 基于 语义 出 版 的 融合 

如 果 说 搜索 引擎 是 第 一 代 互 联网 的 核心 技 
术 ， 那 么 语义 技术 则 是 第 二 代 互 联网 的 核心 
2009 年 ， 戴 维 : 肖 顿 (David Shotton) 提出 了 
“语义 出 版 ”( Semantic Publishing ) 的 概念 。 
他 认为 语义 出 版 是 学 术 出 版 的 一 种 增强 。 它 利 
用 互联 网 技术 与 标准 ( 例如 知识 组 织 体系 、 本 
体 、RDF、 可 视 化 、 唯 一 标识 符 ) 来 增强 内 容 
之 间 的 互 操 作 性 ， 让 出 版 的 内 容 更 加 丰富 和 有 
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图 6 XMM-Newton 观测 数据 出 版 物 信息 


OM-UVW2 image 


Publications 


BibCode 
2015ApJ...814...50D 
2015A8A..5764.108G 
2014Ap&SS.354...97Y 


2012MNRAS.426..903P 
2011PhDT........9H 


2009ApJ...697..900M 


当前 ， 大 型 出 版 商 逐 步 开始 了 语义 网 应 用 
实验 与 服务 。 例 如 爱 思 唯 尔 (Elsevier ) 的 “学 
术 论 文 的 未 来 ” (Article of the Future) 项 目 、 美 
国 公共 科学 图 书馆 (PLOS ) AY Semantic Enrich- 
ing 项 目 、 英 国 皇家 化 学 学 会 (RSC ) 的 Pros- 
pect 项 目 。 

如 图 7 所 示 ， 爱 思 唯 尔 的 “Article of the 
Future” 语 义 出 版 理念 包含 以 下 3 个 方面 已 : 即 
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中 呈现 形式 方面 ， 提 供 最 佳 在 线 浏览 及 阅读 体 
验 ; @ 整 合 内 容 方面 ， 作 者 可 以 分 享 的 更 多 ， 比 
如 数据 、 代 码 、 多 媒体 信息 等 ，@@ 相 关 信 息 方 
面 ， 在 线 文章 与 来 源 可 靠 的 科技 信息 链接 ， 并 
在 相关 信息 中 呈现 出 来 ， 提 升 附加 值 。 如 图 8 
所 示 路 ， 整 合 页 面 由 传统 的 “中 一 右 ” 两 栏 变 
成 了 “ 左 一 中 一 右 ” 三 栏 式 。 除 了 展示 题 录 信 
息 以 外 ， 页面 还 包括 了 章节 信息 、 附 图 信息 、 表 
格 信息 、 相 关 文 献 、 引 用 文献 甚至 还 有 替代 计 
量 学 的 数据 。 摘 要 部 分 除了 文字 摘要 外 ， 还 有 
基于 图 的 摘要 (图 9 站、， 甚 至 是 一 段 Youtube 
的 视频 ( 图 1050)。 一 篇 文章 在 形式 和 内 容 上 都 
被 分 解 成 为 细 粒 度 的 知识 单元 ， 并 且 相 互 关联 
形成 网 络 。 
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Volume 40, Issue 5, April 2010, Pages 543-554 


Exposed proteins of the Schistosoma japonicum tegument 
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Abstract 


The ability of the mammalian blood fluke Schistosoma japonicum to survive in the 
inhospitable environment of the mammalian bloodstream can be attributed, at least in part, 
to its host-exposed outer surface, called the tegument. The tegument is a dynamic organ 
and is involved in nutrition, immune evasion and modulation, excretion, osmoregulation and 
signal transduction. Given its importance for parasite survival, proteins exposed to the host 
at the surface of the tegument are ideal targets for the development of vaccines and drugs. 
By biotinylating live adult worms and using a combination of OFFGEL electrophoresis and 
tandem mass spectrometry 54 proteins were identified as putatively host-exposed in S. 
Japonicum These included glucose transport proteins, an amino permease, a leucine 
aminopeptidase and a range of transporters, heat shock proteins and novel immune-active 
proteins. Members of the tetraspanin protein family and a homologue of Sm 29, a tegument 
membrane protein from Schistosoma mansoni, both effective vaccine antigens in S. 
mansoni, were also identified. The fate of labelled surface proteins was monitored over time 
usina electron microsconv and revealed that biotinvlated proteins were rapidlv internalised 
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Abstract 


A novel SnO2/graphene oxide (GO) nano-nano composite was prepared by a facile sol-gel 
process. X-Ray diffraction (XRD), scanning electron microscopy (SEM), Raman 
spectroscopy, and nitrogen adsorption—desorption isotherms measurements confirmed the 
formation of a SnO2/GO nano-nano composite. The photoreaction of this SnO2/GO nano- 
nano composite was studied via the photodegradation of rhodamine B (RhB). Interestingly, 
the degradation mode of RhB in oxygen-saturated solution is photocatalytic reaction, but the 
degradation mode in argon-saturated solution is not photocatalytic reaction 


Graphical abstract 
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图 9 Science Direct 图 摘要 


再 以 英国 皇家 化 学 会 (RSC ) 出 版 平台 为 
例 ， 来 说 明 语义 出 版 是 如 何 将 科学 文献 与 科学 类 
据 相关 联 的 。 作 为 化 学 领域 的 资深 出 版 商 ，RSC 
积累 了 丰富 的 文献 、 数 据 、 术 语 、 结 构 式 、 图 片 
等 。 基 于 此 ，RSC 在 语义 出 版 方面 提出 了 “ 生 
动 的 科学 ”(Science Come Alive) 的 概念 。 

如 图 11 所 示 ， 在 论文 正文 中 有 一 些 单词 
以 高 亮 显示 ， 并 且 添 加 了 超 链接 。 以 HPEPS 为 
例 ，HPEPS 学 名 为 4- 羟 乙 基 哌 嗪 乙 磺 酸 ， 它 是 
一 种 所 离子 组 冲剂。 如 果 阅 读 到 此 处 想 要 了 解 
这 种 化 学 物质 的 基本 特性 、 物 理 、 化 学 参数 ,， 传 
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统 阅读 方式 需要 跳出 当前 阅读 环境 ， 通 过 相关 
的 工具 或 网 站 去 查询 。 而 Rich HTML 则 不 同 , 只 
要 用 鼠标 点 击 图 中 的 蓝 色 文 字 ， 在 右 侧 则 会 出 
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子 式 、 分 子 量 、CAS 号 等 相关 参数 信息 。 这样 , 读 
者 的 阅读 过 程 既 有 纵向 ， 也 有 横向 ,但 是 思维 
始终 保持 着 连贯 ， 并 且 在 一 个 页 面 里 就 能 阅读 


MAX HPEPS 的 二 维 、 三 维 分 子 结构 图 以 及 分 
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图 10 Science Direct 视频 摘要 


Metabolic substrate consumption and non-gaseous fermentation product formation were followed applying high 
performance liquid chromatography (HPLC) analysis. The HPLC (Knauer, Berlin, Germany) was equipped with 
a Rezex™ ROA-Organic Acid column in combination with the SecurityGuard™ cartridge AJO-4490 
(Phenomenex®, Aschaffenburg, Germany). The chromatograms were recorded at room temperature with 
0,005 N sulphuric acid as the eluent; the detector was a differential refractometer. 


2.6. Phylogenetic analysis of the mixed culture biofilms 

The qualitative identification and characterization of the microbial biofilms was performed by Nadicom GmbH 
Microbiology Services, Marburg, Germany, based on polymerase chain reaction (PCR)-based methods on DNA 
extracted from the biofilm samples. The phylogenetic analysis of the wastewater inoculum based biofilms 
revealed 14 genealogical trees with in awhole about 500 bacterial species (data not shown), 


2.7. Scanning electron microscopy 

For the electron microscopy the biofilms were prepared as follows; after a fixation step (1 h in 1% glutaraldehyde, 
2% paraformaldehyde, 0.2% picric acid, 10 mM HEPES (pH 7.4), and 50 mM NaNs3), the samples were treated 
with 2% tannic acid for 1 h, 1% osmium tetroxide for 2h, 1% thiocarbohydrazide for 30 min, 1% osmium tetroxide 
over night, and with 2% uranyl acetate for 2 h with washing steps in between. The samples were dehydrated in a 
graded series of aqueous ethanol solutions (10-100%) and then critical point-dried via amylacetate and CO3. 
Finally, samples were mounted on aluminium stubs, sputtered with gold and examined in a DSM 940A (Zeiss, 
Oberkochen, Germany). 
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由 此 可 见 , 语义 出 版 的 实质 就 是 知识 网 络 。 
网 络 的 最 底层 是 本 体 、 术语、 词 表 , 简 而 言 之 , 是 
一 个 庞大 的 学 术 环境 。 而 网 络 的 上 层 则 是 论文 
中 的 知识 点 。 语 义 出 版 对 文献 内 容 进行 基于 知 
识 单元 的 抽取 、 规 范 ， 并 把 抽取 出 来 的 条 目 与 
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底层 的 学 术 环境 进行 关联 ， 最 后 通过 代码 和 特 
效 将 这 些 成 果 都 呈现 在 用 户 的 阅读 环境 中 。 语 
义 出 版 使 得 出 版 商 提供 的 不 再 仅仅 是 文献 的 出 
版 服务 ， 而 是 一 种 全 新 的 、 生 动 的 学 术 交 流 与 
知识 传播 过 程 。 
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科学 文献 与 科学 数据 通过 不 同 的 途径 产 
Æ, 各自 的 元 数据 规范 存在 较 大 差异 ， 并 且 在 
不 同 的 语 境 中 存在 的 方式 也 不 同 。 科 技 文献 和 
科技 文献 的 元 数据 虽然 是 人 们 所 熟知 的 ， 但 是 
单 就 科技 文献 来 看 也 存在 多 个 种 类 : 期 刊 论 
文 、 会 议论 文 、 科 技 报告 、 学 位 论文 等 。 而 科 
学 数据 对 于 图 书 情 报 以 及 学 术 出 版 行业 来 说 则 
更 为 陌生 。 目 前 国内 外 已 有 一 些 学 者 对 科学 数 
据 的 元 数据 进行 介绍 。 雪 城 大 学 秦 健 教授 总 结 
出 科学 元 数据 具有 4 个 功能 ， 即 数据 管理 、 数 
据 质 量 控制 、 数 据 再 利用 和 数据 发 现 ， 其 中 数 
据 管理 功能 是 其 他 功能 的 基础 ”所 。 而 不 同学 
科 领 域 的 科学 数据 描述 信息 则 更 为 独特 ， 并 且 
有 该 领域 固有 的 元 数据 规范 。 例 如 地 理学 科 元 
数据 标准 主要 分 为 FGDC 元 数据 标准 和 ISO/ 
TC211 元 数据 标准 ; 生物 多 样 性 领域 的 达尔 文 
核心 (Darwin Core ) 元 数据 标准 ， 气 象 领域 元 
数据 标准 CF (Climate Forecast) 等 。 科 学 文 
献 中 的 内 容 如 何 与 这 些 科学 数据 描述 信息 进行 
匹配 是 融合 的 一 个 难点 。 因 为 每 个 领域 的 科学 
数据 描述 信息 揭示 更 为 充分 和 细 粒 度 。 而 目前 
对 科学 文献 内 容 的 揭示 粒度 还 是 比较 粗 的 。 因 
此 ， 除 了 一 对 一 对 应 的 “ 硬 关联 ”外 ， 要 进行 
二 者 准确 的 关联 融合 就 还 需要 对 内 容 进 行进 一 
步 的 处 理 。 

在 关联 的 过 程 中 ,被 关联 的 一 方 ， 即 Target 
的 描述 更 为 重要 。 因 为 Target 需要 从 自己 的 描 
述 中 找到 和 关联 方 即 Source 传 来 的 内 容 相 一 致 
的 内 容 。 但 从 实际 应 用 来 看 ， 从 文献 到 数据 和 
从 数据 到 文献 的 情形 都 存在 。 因 此 ， 从 数据 这 
一 部 分 来 看 ， 需 要 形成 科学 数据 的 元 数据 ， 对 
其 内 容 进行 完整 的 描述 。 例 如 数据 题名 、 数 据 
所 包含 的 标准 写法 (例如 HPEPS、4- #8 AIR 
嗪 乙 磺 酸 ) 、 别 名 、 分 子 式 、 观 察 地 点 ( 经 纬 
度 ) 等 。 总 之 , 需要 让 可 关联 的 点 更 加 丰富 一 些 。 
而 对 于 科学 文献 这 一 部 分 来 看 ， 需 要 从 文献 中 
抽取 出 特定 的 知识 单元 。 毕 竟 数 据 传 过 来 的 关 
联 需求 只 能 是 内 容 片段 ， 不 会 是 一 个 完整 的 文 
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献 名 称 。 这 些 抽取 出 来 的 内 容 会 比 作 者 自己 形 
成 的 关键 词 要 更 为 丰富 。 
再 者 ， 对 科学 文献 进行 细 粒 度 知 识 单元 的 
抽取 时 ， 需 要 借助 比较 完备 的 知识 组 织 体系 ， 例 
如 领域 词典 、 叙 词 表 、 本 体 或 者 自己 建立 的 实 
体 (知识 ) 库 。 一 来 是 将 其 作为 抽取 的 凭据 ， 再 
者 可 以 作为 已 有 内 容 的 规范 依据 。 总 之 ， 这 些 
基础 都 能 让 内 容 的 抽取 更 为 准确 ， 从 而 提高 
联 和 融合 的 准确 性 。 

从 前 面 的 案例 可 以 看 出 ， 目 前 能 够 建立 
较 大 规模 、 揭 示 程 度 较 深 的 融合 服务 的 机 构 都 
是 站 在 特定 行业 或 者 学 科 领 域 顶端 的 机 构 。 首 
先 ， 这 些 机 构 有 其 独立 、 稳 定 的 信息 汇聚 渠道 。 
例如 出 版 商 控制 学 术 期 刊 ， 而 有 的 行业 协会 则 
拥有 行政 管理 的 职责 ， 甚 至 自己 出 版 学 术 期 
刊 。 其 次 ， 经 过 多 年 的 积累 ， 这 些 机 构 有 着 深 
厚 的 学 术 背 景 和 技术 能 力 。 他 们 了 解 学 术 发 展 
的 动态 ， 了 解 科 研 人 员 的 需要 ， 同 时 也 有 能 
在 海量 资源 的 基础 上 进行 更 加 深入 的 处 理 ， 从 
而 推出 更 好 的 服务 。 以 英国 皇家 学 会 (RSC ) 为 
例 ，RSC 利用 自 建 或 开放 的 本 体 (RXNO C- 
MO, MOP, GO, sO 等 ) 、 化 学 结构 数据 库 
(ChemSpider ) ， 对 文章 进行 细 粒 度 标 引 ， 抽 
取出 其 中 的 专业 概念 , 如 化 合 物 名 称 、 分 子 式 、 术 
语 、 机 构 等 ， 从 而 使 RSC 在 线 出 版 的 文章 极 
大 地 增强 了 对 学 科 知识 的 揭示 和 关联 能 力 。 因 
此 ， 科 学 数据 与 科学 文献 的 融合 不 仅仅 是 一 个 
技术 问题 ， 更 应 该 是 “资源 的 积累 + 多 种 技术 
的 综合 应 用 + 新 型 用 户 学 术 服 务 ” 的 结合 体 。 


结论 


科学 文献 与 科学 数据 的 关联 与 融合 既是 当 
前 科学 研究 的 迫切 需要 ,也 是 互联 网 .计算 机 、 大 
数据 、 智 能 设备 等 各 项 技术 发 展 的 产物 ， 同 时 
也 是 开放 科学 运动 的 阶段 性 成 果 之 一 。 科 学 数 
据 与 科学 文献 融合 ， 能 够 将 研究 数据 在 科学 事 
业 中 的 作用 进一步 发 挥 出 来 ， 让 科学 研究 的 链 
条 不 再 缺失 ， 同 时 也 能 够 深度 挖掘 文献 与 数据 
的 关系 ， 为 用 户 呈 现 出 更 为 丰富 的 信息 服务 。 
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文献 与 数据 的 融合 是 大 数据 时 代 科 研 与 服 
一 个 亮点 ， 同 时 也 仅仅 是 一 个 开始 ， 期 待 


在 这 个 领域 有 更 多 的 精彩 案例 与 服务 应 用 。 
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Research and Practice on the Integration of Scientific literature and Scientific Data 
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Abstract: [Purpose/significance] This paper focuses on the development of the open science movement and 
the influence of scientific data on scientific research, introduces some cases of the integration of scientific lit- 
erature and scientific data, and states the methods and problems of integration. [Method/process] The author 
described the status of separation of scientific literature and scientific data, explained the background that 
promotes the integration of these two things. Then, by the case study, it introduced three types performance 
of the integration of scientific literature and scientific data. [Result/conclusion] The integration of scientific 
literature and scientific data is needed by scientific research, as well as a form of influence on modern sci- 
entific research in the era of open science and big data. In practical application, there are mainly three ways: 
“hard connection”, “soft connection” and “deep integration”. The integration of literature and data need to be 

promoted by the comprehensive measures from the main institutions of all fields. 
Keywords: scientific literature scientific data scientific communication scholar publishing open sci- 


ence movement 


